بازشناسی بر خط و بدون محدودیت دست نوشته فارسی
thesis
- وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی اصفهان - دانشکده مهندسی برق و کامپیوتر
- author مسعود فرکی
- adviser مازیار پالهنگ محمدرضا احمدزاده
- Number of pages: First 15 pages
- publication year 1388
abstract
بازشناسی برخط نوشتار یکی از دشوارترین زمینه های شناسایی الگو و هوش مصنوعی بوده و همواره مورد توجه خاص محققان قرار گرفته است. پیچیدگی این زمینه, هنگام برخورد با زبان هایی مثل فارسی و عربی که حروف آن ها باتوجه به موقعیت شان در کلمه, شکل های متفاوتی به خود می گیرند, دوچندان می شود. تحلیل دست نوشته ی فارسی یا عربی در مقایسه با زبان های لاتین، به علت حضور اجزای کوچکی ("نقطه", "دونقطه" و ...) بالا یا پایین حروف آن ها دشوارتر است. ورودی یک سیستم بازشناسی دست نوشته برخط, یک قلم و صفحه حساس مانند صفحات کامپیوترهای جیبی است. در زمینه بازشناسی برخط نوشتار عربی یا فارسی تحقیقات چندانی صورت نگرفته است. تعدادی از کارهای گزارش شده در این زمینه, محدود به بازشناسی حروف منفصل بوده و یا در زمینه بازشناسی لغات, شیوه نوشتاری خاصی برای کاربران, از پیش تعریف شده و بازشناسی انجام شده محدود به تعداد لغات موجود در یک فرهنگ لغت از پیش تعیین شده, بوده است. در این پروژه, نرم افزاری طراحی و پیاده سازی شده است که به صورت برخط, عمل بازشناسی کلمات دست نوشته فارسی که هر ترکیبی از حروف فارسی می توانند باشند را, انجام می دهد. علت اصلی درنظر گرفتن لغت نامه برای یک سیستم بازشناسی, کاهش فضای جستجو در مرحله رده بندی و در نتیجه, افزایش درصد موفقیت بازشناسی است. این دو مسیله به گونه ایی دیگر در سیستم پیشنهادی محقق شده اند. در مرحله طراحی سیستم, مشخصات مسیر حروف فارسی به همراه جزء کوچک مخصوص هر یک, ثبت می شوند. برای هریک از حروف و اجزای کوچک, یک نمونه از مدل مخفی مارکوف چپ به راست نیز در نظر گرفته می شود (به جز نقطه). در مرحله بکارگیری سیستم, بازشناسی برای هر کدام از زیرکلمات یک کلمه، مستقلاً انجام می شود. ابتدا پس از دریافت دنباله نقاط نوشته شده توسط کاربر, زیرکلمات به همراه اجزای کوچک شان بر اساس یک سیستم تصمیم گیری فازی، مرتب می شوند. سپس بازشناسی اجزای کوچک, انجام شده و رشته ای از اسامی آن ها ساخته می شود. ایده ی اصلی سیستم پیشنهادی, انجام یک مرحله تولید نامزدهای معتبر زیرکلمه, براساس رمز مسیرهای حروف و انطباق هم زمان رشته اجزای کوچک با اجزای کوچک حروف نامزد است. مرحله تولید نامزد, بر اساس یک الگوریتم پیشنهادی بیش بخش بندی بر مبنای خواص ساختاری حروف فارسی, عمل می کند. بعد از بیش بخش بندی بدنه ی یک زیرکلمه، گرافی از نقاط پیشنهادی آن ساخته و در ریوس آن اطلاعات مفیدی از جمله رمز مسیر و بردار ویژگی تا ریوس بعدی متصل نگهداری می شوند. رده بندی نهایی نیز با انتخاب ترکیب حروفی که احتمال عادی شده نسبی آن بر اساس ویژگی های استخراج شده, بیشینه باشد صورت می گیرد. احتمال عادی شده ی نسبی یک زیرکلمه برابر با مجموع احتمال های حروف آن تقسیم به تعداد حروف مذکور می باشد. احتمال یک حرف نیز بر پایه ی بردار ویژگی آن و مدل مخفی مارکوف آن حرف است. به علت فقدان یک مجموعه آموزشی استاندارد در زمینه بازشناسی برخط کلمات فارسی, مجموعه ای برای ارزیابی سیستم که شامل 200 لغت است و توسط 9 نفر نوشته شده اند, تهیه شده است. نتایج عملکرد سیستم بازشناسی بر اساس نرخ بازشناسی کلمات و زیرکلمات ارایه شده و حاکی از دقت مطلوب آن در هر دو نوع آزمایش وابسته به نویسنده و مستقل از نویسنده می باشد.
similar resources
بازشناسی برون خط کلمات دست نوشته فارسی در یک مجموعه ای از لغات
در این پایان نامه بازشناسی برون خط کلمات دست نوشته فارسی در یک فرهنگ لغت محدود مورد مطالعه قرار می گیرد. برای این منظور یک روش دو مرحله ای پیشنهاد می گردد. در مرحله نخست توسط الگوریتم های خوشه بندی سلسله مراتبی وisoclus کلمات موجود در فرهنگ لغت بر اساس تشابه خوشه بندی می شوند. ویژگی های تشابهی به کار رفته در این مرحله، بردارهای پروفایل بالا، پایین، پروژکشن عمودی و تعداد گذر از سیاه به سفید برای...
15 صفحه اولخوشه بندی سبک نگارش دست نوشته برون خط فارسی
هدف این پایان نامه، یافتن و استخراج ویژگی هایی است که بر مبنای آن بتوان دست خط فارسی را خوشه بندی کرد. در این کار، در ابتدا بر روی ویژگی های مبتنی بر بافت، تمرکز شده است. این ویژگی ها شامل دو دسته ویژگی آماری ماتریس باهم آیی و ویژگی مبتنی بر تبدیل گابور است. برای استخراج این ویژگی ها، یک بافت مناسب در ابعاد 1024×1024 مستقل از محتوای سند، از تصویر دستنوشته ایجاد می شود. از ویژگی های دیگری که در ...
15 صفحه اولبازشناسی کلمات دست نوشته با ویژگی های نوین و کاهش فرهنگ لغت
بازشناسی کلمات دستنوشته و تبدیل آن به متن تایپی معادل می تواند در تفسیر دستنوشته و جستجو در اسناد بسیار حائز اهمیت باشد. در این مقاله سیستمی به منظور تشخیص برون خط دست نوشته فارسی در یک فرهنگ لغت محدود معرفی شده است. به منظور استخراج ویژگی، بعد از بلوک بندی تصویر ورودی و استخراج مرکز هر بلوک توسط مرکز ثقل، میانگین مرکز اجزای متصل از الگوریتم سیفت متراکم استفاده شده است. از روش آنالیز تفکی...
full textراهنمای آشنایی با ذخایر و دست نوشته های فارسی
هدف: احیای متون فارسی و دست نوشته های موجود در گنجینة نسخه های خطی کتابخانه ها، بحث تازه ای نیست و برخی از دانشمندان برجسته، در این زمینه خدمات شایانی ارائه داده اند، لکن فهرست های رایج، وافی به مقصود طالبان آثار نیست و این کار را باید جهتی نو بخشید و از شیوه های جدید و صحیح پیروی کرد. روش: در راستای روش های احیا و حفظ متون فارسی در تمام مراحل آن از جمله کتابت، مقابله، تصحیح، ترجمه، تدریس، ته...
full textدست نوشته های اسماعیلیان بدخشان
در دور دستها ، پهلو به پهلوی چین ، باریکه سرزمینی است ، بسیار مرتفع ، با کوههای آسمان بوس و به هم فشرده ، با معبرهای تنگ دشوار گذر، با زمستانهای سرد نه ماهه ، برخوردگاه چهار تمدن بزرگ آسیا: ایران، هند، چین و آسیای مرکزی که دورترین نقطه است نسبت به همهی آنها و پناهگاهی است امن برای راندهشدگان از سراسر این سرزمینها ،نه تنها کسان که حتی باورها و اندیشههای کهن ، نه در کنارهم که آمیخ...
full textMy Resources
document type: thesis
وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی اصفهان - دانشکده مهندسی برق و کامپیوتر
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023